Cloud DLP
infoType
CryptoReplaceFfxFpeConfig や CryptoDeterministicConfig はキーを残していれば戻せる / 一時的なキーならダメ
カスタム infoType 検出器
カスタム辞書検出器
小規模: 要は単語リスト(n < 数万)、変更される予定があまりないもの
大規模: Cloud Storage や BigQuery に保存されているフレーズを使う (n < 数千万個)
正規表現
変換
削除・置換・辞書で置き換え・マスキング,・仮名化, etc...
秘匿化 = もとに戻せせないのか
逆行可能性: もとに戻せる
参照整合性: データを匿名化しながら、レコード同士の関係を維持する
スコアを Low, Medium, High にしたり
職種をより一般的で曖昧な表現にしたり
名前の頭文字にしたり、日付を年や月にしたり
バケット化だと順序が失われて有用性がなくなる場合
キーごとに一定の日付をずらす
user_id=1 なら 15 日, user_id=2 なら 30日 とか
user_id 内では順序や間隔は維持される
トークンで置き換える方法3つ
AES-SIV → 暗号化してハッシュ値, 文字セットや長さを保持しない、再識別化できる
フォーマット保持暗号化 → FPE-FFX 文字セットと入力値の長さが保持される、基数種のアルファベットを定義して置き換え、再識別化できる 暗号ハッシュ → 単に HMAC-SHA256 ハッシュ取る、再識別化できない
参照整合性はどれもある(入力が同じなら同じ出力)
具体例はページにある
https://gyazo.com/7fd9d9dfc24442a03416928cf99b0073
暗号鍵指定できる
サロゲートアノテーションて具体的に何?
図の①、infoType と 文字数